ความน่าจะเป็นและสถิติ: วิทยาศาสตร์แห่งความไม่แน่นอน: สถิติเป็นตัวแปรสุ่ม: การแจกแจงตัวอย่าง

ในการสรุปทางสถิติ เราเริ่มจากการสังเกตจุดข้อมูลเดี่ยวๆ แล้วไปวิเคราะห์ **สถิติ** — ฟังก์ชันการแปลงเชิงฟังก์ชัน $Y = h(X_1, X_2, \dots, X_n)$ ของลำดับตัวอย่าง เนื่องจากตัวอย่างพื้นฐานประกอบด้วยตัวแปรสุ่ม ดังนั้นตัวสถิติเองก็เป็นตัวแปรสุ่ม และกฎความน่าจะเป็นของมันเรียกว่า **การแจกแจงตัวอย่าง**

สถิติในฐานะการแปลง

สถิติถูกนิยามอย่างเป็นทางการว่าเป็นฟังก์ชัน $h: \mathbb{R}^n \to \mathbb{R}$ เราจะกำหนดความน่าจะเป็นที่ตัวสถิติจะตกอยู่ในเซต $B$ โดยใช้ภาพกลับ (pre-image):

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

รากฐานของตัวแปรอิสระและเหมือนกัน (i.i.d.)

สำหรับตัวอย่างของตัวแปรสุ่มที่เป็นอิสระและมีการแจกแจงเหมือนกัน (i.i.d.) ความน่าจะเป็นร่วมของจุดตัวอย่างเฉพาะเจาะจง $(x_1, \dots, x_n)$ คือผลคูณของความน่าจะเป็นตามขอบเขต: $p(x_1)p(x_2)\dots p(x_n)$ ผลคูณนี้ทำหน้าที่เป็นน้ำหนักให้แต่ละจุดเมื่อคำนวณความน่าจะเป็นรวมที่ตัวสถิติจะมีค่าเฉพาะ

ตัวอย่าง 4.1.1: ค่าเฉลี่ยเรขาคณิต

พิจารณาประชากรแบบแยกประเภทที่ $p_X(1) = 1/2$, $p_X(2) = 1/4$, และ $p_X(3) = 1/4$ เราสุ่มตัวอย่างขนาด $n=2$ ($X_1, X_2$) และนิยามตัวสถิติของเราเป็นค่าเฉลี่ยเรขาคณิต: $Y_2 = (X_1 X_2)^{1/2}$

เพื่อหาการแจกแจงของ $Y_2$ เราจะแสดงรายการคู่ทั้งหมด 9 คู่ที่เป็นไปได้ $(X_1, X_2)$ คำนวณความน่าจะเป็นร่วม และค่า $Y_2$ ที่ได้มา:

คู่ $(x_1, x_2)$	ความน่าจะเป็น $P(x_1)P(x_2)$	$Y = \sqrt{x_1 x_2}$
(1, 1)	1/4	1.000
(1, 2), (2, 1)	1/8 + 1/8 = 1/4	1.414
(1, 3), (3, 1)	1/8 + 1/8 = 1/4	1.732
(2, 2)	1/16	2.000
(2, 3), (3, 2)	1/16 + 1/16 = 1/8	2.449
(3, 3)	1/16	3.000

การแจกแจงแบบแม่นตรงเทียบกับแบบเชิงเส้น

ก่อนที่จะไปสู่ทฤษฎีบทเชิงขีดจำกัด เช่น ทฤษฎีบทกลางของคลัสเตอร์ (CLT) เราต้องเข้าใจการแจกแจงแบบ "แม่นตรง" ก่อน ซึ่งเกี่ยวข้องกับการคำนวณฟังก์ชันมวลหรือความหนาแน่นของความน่าจะเป็นเฉพาะสำหรับตัวสถิติเมื่อมี $n$ ที่เล็กและจำกัด เมื่อรูปแบบเชิงวิเคราะห์กลายเป็นเรื่องยาก เราจะใช้การจำลองเชิงตัวเลข เช่น **การประมาณแบบมอนต์คาร์โล**

หลักการสำคัญ

การแจกแจงตัวอย่างคือการแจกแจงของตัวแปรสุ่มที่สัมพันธ์กับฟังก์ชันของลำดับที่เป็นอิสระและเหมือนกัน (i.i.d.) มันเป็นสะพานเชื่อมระหว่างข้อมูลดิบและกระบวนการอนุมานทางวิทยาศาสตร์

คำถามที่ 1

สมมุติว่า $X_1, X_2, X_3$ เป็นตัวแปรสุ่มที่อิสระและมีการแจกแจงเหมือนกัน (i.i.d.) จากการแจกแจงในตัวอย่าง 4.1.1 ความน่าจะเป็นที่ค่าเฉลี่ยเรขาคณิต $Y_3 = (X_1 X_2 X_3)^{1/3}$ จะเท่ากับ 1 คือเท่าใด?

$1/2$

$1/4$

$1/8$

$1/27$

คำถามที่ 2

ลูกเต๋าหกหน้าที่ยุติธรรมถูกโยน $n = 2$ ครั้งอย่างอิสระ ความน่าจะเป็นที่ค่าเฉลี่ยตัวอย่างจะเท่ากับ 1.5 คือเท่าใด?

$1/36$

$2/36$

$3/36$

$1/6$

คำถามที่ 3

ในกระปุกที่มีสัดส่วน $p$ ของเหรียญที่มีหมายเลข 0 และ $1-p$ ที่มีหมายเลข 1 ทำการสุ่มตัวอย่างขนาด $n=2$ โดยการสุ่มแบบใส่กลับ ความน่าจะเป็นที่ค่าเฉลี่ยตัวอย่างจะเท่ากับ 0.5 คือเท่าใด?

$p^2$

$(1-p)^2$

$2p(1-p)$

$p(1-p)$

คำถามที่ 4

โครงสร้างทางคณิตศาสตร์ใดที่แทนเซตของจุดตัวอย่างทั้งหมด $(x_1, \dots, x_n)$ ที่ทำให้ตัวสถิติ $h$ ตกอยู่ในช่วงเฉพาะ $B$?

ฟังก์ชันความหนาแน่นร่วม

ภาพกลับ $h^{-1}B$

ฟังก์ชันสร้างโมเมนต์

การแปลงค่าคาดหมาย

คำถามที่ 5

เมื่อประมาณอินทิกรัล $\int_{-\infty}^{\infty} \cos^2(x)e^{-x^2/2} dx$ โดยวิธีมอนต์คาร์โล ควรสุ่มจากแจกแจงใดเพื่อให้การคำนวณง่ายขึ้น?

สม่ำเสมอ (0, 1)

พอสสัน (1)

ปกติมาตรฐาน $N(0, 1)$

เอ็กซ์โปเนนเชียล (1)

ความท้าทาย: การออกแบบการประมาณแบบมอนต์คาร์โล

การจำลองอินทิกรัลที่ซับซ้อน

คุณได้รับภาระงานในการประมาณอินทิกรัล $\mathcal{I} = \int_{-\infty}^{\infty} \cos^2(x)e^{-x^2/2} dx$ เนื่องจากอินทิเกรนด์ที่แท้จริงไม่สามารถหาได้ด้วยวิธีพื้นฐาน คุณตัดสินใจใช้วิธีมอนต์คาร์โลที่อิงจากการแจกแจงตัวอย่างของฟังก์ชันการเปลี่ยนแปลง

ข้อ 1

แสดงอินทิกรัล $\mathcal{I}$ เป็นค่าคาดหมายของฟังก์ชันของตัวแปรสุ่มปกติมาตรฐาน $X \sim N(0, 1)$

คำตอบ:
ความหนาแน่นของ $N(0, 1)$ คือ $\phi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}$
ดังนั้น $e^{-x^2/2} = \sqrt{2\pi} \phi(x)$
อินทิกรัลกลายเป็น: $\int_{-\infty}^{\infty} \cos^2(x) \sqrt{2\pi} \phi(x) dx = \sqrt{2\pi} E[\cos^2(X)]$

ข้อ 2

อธิบายขั้นตอนของอัลกอริธึมมอนต์คาร์โลเพื่อประมาณค่านี้

คำตอบ:
1. สร้างตัวอย่างอิสระ $n$ ตัว $X_1, X_2, \dots, X_n$ จากการแจกแจง $N(0, 1)$
2. คำนวณ $Y_i = \cos^2(X_i)$ สำหรับแต่ละตัวอย่าง
3. คำนวณค่าเฉลี่ยตัวอย่าง $\bar{Y} = \frac{1}{n} \sum Y_i$
4. ค่าประมาณคือ $\hat{\mathcal{I}} = \sqrt{2\pi} \bar{Y}$